Un processus multi-approches pour l'indexation de documents

نویسندگان

Wilfried Njomgue Sado

Dominique Fontaine

چکیده

This article presents an automatic method of indexing documents based on a semantic, linguistic and finally statistics approach. The semantic analysis is based on the annotation of the document to index by using the ontology of water domain’s. The linguistic process and statistics which succeed him are a sequential combination of the linguistic analysis of the document to be indexed by the extraction of the significant terms of the document and the statistical analysis is the decomposition in singular values of words composing the document. Here, weighting terms are set to take advantages of both their position compared to other terms (co-occurrence) and their local and global context. An application was developed in order to suggest assignments topics of documents to a referential. Finally, we will present experiments comparatives results (with or without semantic treatment) and evaluation carried out on documents of Suez-Environnement. MOTS-CLES : ontologie, indexation, linguistique, statistique

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Évaluation des approches multi-apprenants pour l'indexation des concepts dans les documents vidéo

Les méthodes multi-apprenants avec sous-échantillonnage aléatoire inversé (IRUS) ont étét introduites par (Tahir et al., 2009). Ces approches ont été validées avec succès pour l’indexation multimédia mais avec un seul type de classifieur, la régréssion logistique, et un seul descripteur de type histogramme de SIFT. Dans ce travail, nous étudions cette approche avec d’autres types de classifieur...

متن کامل

Etude de l'impact du regroupement automatique de phrases sur un système de résumé multi-documents

RÉSUMÉ. Dans cet article, nous comparons les résultats produits par différentes approches de résumé multi-documents. Nous opposons deux approches classiques à la nôtre qui place la modélisation de la diversité informationnelle du corpus au centre du processus. Nous évaluons également l’impact de différentes mesures de similarité entre phrases. Les expériences, menées sur le corpus RPM2, montren...

متن کامل

Classification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information

RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’inte...

متن کامل

Conception d'un outil d'aide à l'indexation de ressources pédagogiques - Extraction automatique des the?matiques et des mots-clefs de documents UNIT

RÉSUMÉ Le Learning Object Metadata (LOM) est le standard incontestable pour l’indexation des ressources pédagogiques. L'indexation de ces ressources en LOM est souvent accomplie manuellement par des documentalistes. Renseigner l’ensemble des champs du LOM d’un document est une tâche difficile et longue, nécessitant habituellement une lecture complète et une connaissance dans le domaine traité. ...

متن کامل

Apprentissage neuro-symbolique pour la RI coopérative, adaptative et évolutive : le modèle multi-agents SARCI

RÉSUMÉ. Dans cet article nous proposons un modèle pour un SRI qui prend en compte la complexité de la requête de l’utilisateur en proposant de la décomposer en différents points de vue. Nous proposons également de considérer les documents du corpus suivant des angles différents et des structures diverses. Pour prendre en compte le caractère évolutif des connaissances liées aux documents et aux ...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2005

Un processus multi-approches pour l'indexation de documents

نویسندگان

چکیده

منابع مشابه

Évaluation des approches multi-apprenants pour l'indexation des concepts dans les documents vidéo

Etude de l'impact du regroupement automatique de phrases sur un système de résumé multi-documents

Classification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information

Conception d'un outil d'aide à l'indexation de ressources pédagogiques - Extraction automatique des the?matiques et des mots-clefs de documents UNIT

Apprentissage neuro-symbolique pour la RI coopérative, adaptative et évolutive : le modèle multi-agents SARCI

عنوان ژورنال:

اشتراک گذاری